寫在前面
應該是前天的失誤,這次的鐵人挑戰應該是失敗了,但不能成為鐵人,也是要堅定地走下去對吧...
這邊弘毅老師將 self-attention 詳細的講了一次。其中包含了 key 啊,query 啊,以及相關性等相互的作用都介紹好了。但我想從原則的角度來看,就是 self-attention 會嘗試找出輸入之間的相關性,另外,也可以用堆疊很多層的 self-attention。
也就是說,我們在看一個輸入,這個輸入要跟甚麼其他的輸入有關,是透過訓練學習而來的。對於影像來說,也可以把圖片視為視為一個向量,就可以來處理影像辨識的問題了。
那 CNN 與 self-attention 有哪邊不一樣呢? 下一次繼續來學習~